home *** CD-ROM | disk | FTP | other *** search
/ Ian & Stuart's Australian Mac: Not for Sale / Another.not.for.sale (Australia).iso / fade into you / being there / Services / WWW / web wanderers / web wanderers < prev    next >
Text File  |  1994-10-01  |  14KB  |  385 lines

  1.  
  2.    [IMAGE] This document is part of The Web at Nexor
  3.      _________________________________________________________________
  4.    
  5.                                 LIST OF ROBOTS
  6.                                        
  7.    This is a list of Web Wanderers. See also World Wide Web Wanderers,
  8.    Spiders and Robots.
  9.    
  10.    If you know of any that aren't on this list, please let me know.
  11.    
  12.    If you find you have been visited by a robot and you want to be
  13.    excluded from the searches please mail the author directly.
  14.      _________________________________________________________________
  15.    
  16. The JumpStation Robot
  17.  
  18.    
  19.    
  20.    Run by Jonathon Fletcher <J.Fletcher@stirling.ac.uk>.
  21.    
  22.    Verion I has been in development since September 1993, and has been
  23.    running on several occasions, the last run was between February the
  24.    8th and February the 21st.
  25.    
  26.    More information, incuding access to a searcheable database with
  27.    titles can be found on The Jumpstation
  28.    
  29.    Identification: It runs from pentland.stir.ac.uk, has "JumpStation" in
  30.    the User-agent field, and sets the From field.
  31.    
  32.    Version II is under development..
  33.      _________________________________________________________________
  34.    
  35. Repository Based Software Engineering Project Spider
  36.  
  37.    
  38.    
  39.    Run by Dr. David Eichmann <eichmann@rbse.jsc.nasa.gov> For more
  40.    information see the Repository Based Software Engineering Project.
  41.    
  42.    Consists of two parts:
  43.    
  44.    Spider
  45.           A program that creates an Oracle database of the Web graph,
  46.           traversing links to a specifiable depth (defaults to 5 links)
  47.           beginning at a URL passed as an argument. Only URLs having
  48.           ".html" suffixes or tagged as"http:" and ending in a slash are
  49.           probed. Unsuccessful attempts and leaves are logged into a
  50.           separate table to prevent revisiting. This is effectively then,
  51.           a limited-depth breadth-first traversal of only html portions
  52.           of the Web. We err on the side of missing non-obvious html
  53.           documents in order to avoid stuff we're not interested in. A
  54.           third table provides a list of pruning points for hierarchies
  55.           to avoid because of discovered complexity, or hierarchies not
  56.           wishing to be probed.
  57.           
  58.    Indexer
  59.           A script that sucks html URLs out of the database and feeds
  60.           them to a modified freeWAIS waisindex, which retrieves the
  61.           document and indexes it. Retrieval support is provided by a
  62.           front page and a cgi script driving a modified freeWAIS
  63.           waissearch.
  64.           
  65.    The separation of concerns is to allow spider to be a lightweight
  66.    assessor of Web state, while still providing the value added to the
  67.    general community of the URL search facility.
  68.    
  69.    Identification: it runs from rbse.jsc.nasa.gov (192.88.42.10),
  70.    requests GET /path RBSE-Spider/0.1", with a and uses a
  71.    RBSE-Spider/0,1a in the User-Agent field.
  72.    
  73.    Seems to retrieve documents more than once.
  74.      _________________________________________________________________
  75.    
  76. The WebCrawler
  77.  
  78.    Run by Brian Pinkerton <bp@biotech.washington.edu>
  79.    
  80.    Identification: It runs from fishtail.biotech.washington.edu , and
  81.    uses WebCrawler/0.00000001 in the HTTP User-agent field.
  82.    
  83.    It does a breadth-first walk, and indexes content as well as URLs etc.
  84.    For more information see description, or search its database.
  85.      _________________________________________________________________
  86.    
  87. The NorthStar Robot
  88.  
  89.    Run by Fred Barrie <barrie@unr.edu> and Billy Barron.
  90.    
  91.    More information including a search interface is available on the
  92.    NorthStar Database. Recent runs (26 April) will concentrate on
  93.    textual analysis of the Web versus GopherSpace (from the Veronica
  94.    data) as well as indexing.
  95.    
  96.    Run from frognot.utdallas.edu, possibly other sites in utdallas.edu,
  97.    and from cnidir.org. Now uses HTTP From fields, and sets User-agent to
  98.    NorthStar
  99.      _________________________________________________________________
  100.    
  101. W4 (the World Wide Web Wanderer)
  102.  
  103.    Run by Matthew Gray <mkgray@mit.edu>
  104.    
  105.    Run initially in June 1993, it's aim is to measure the growth in the
  106.    web. See details and the list of servers
  107.    
  108.    User-agent: WWWWanderer v3.0 by Matthew Gray <mkgray@mit.edu>
  109.      _________________________________________________________________
  110.    
  111. The fish Search
  112.  
  113.    Run by people using the version of Mosaic modified by Paul De Bra
  114.    <debra@win.tue.nl>
  115.    
  116.    It is a spider built into Mosaic. There is some documentation online.
  117.    
  118.    Identification: Modifies the HTTP User-agent field. (Awaiting details)
  119.    
  120.      _________________________________________________________________
  121.    
  122. The Python Robot
  123.  
  124.    Written by Guido van Rossum <Guido.van.Rossum@cwi.nl>
  125.    
  126.    Written in Python. See the overview
  127.      _________________________________________________________________
  128.    
  129. html_analyzer-0.02
  130.  
  131.    Run by James E. Pitkow <pitkow@aries.colorado.edu>
  132.    
  133.    Its aim is to check validity of Web servers. I'm not sure if it has
  134.    ever been run remotely.
  135.      _________________________________________________________________
  136.    
  137. MOMspider
  138.  
  139.    Written by Roy Fielding <fielding@ics.uci.edu>
  140.    
  141.    It's aim is to assist maintenance of distributed infostructures (HTML
  142.    webs). It has it's own page.
  143.      _________________________________________________________________
  144.    
  145. HTMLgobble
  146.  
  147.    Maintained by Andreas Ley <ley@rz.uni-karlsruhe.de>
  148.    
  149.    A mirroring robot. Configured to stay within a directory sleeps
  150.    between requests, and the next version will use HEAD to check if the
  151.    entire document needs to be retrieved.
  152.    
  153.    Identification: Uses User-Agent: HTMLgobble v2.2, and it sets the From
  154.    field. Usually run by the author, from tp70.rz.uni-karlsruhe.de.
  155.    
  156.    Now source is available (but unmaintained).
  157.      _________________________________________________________________
  158.    
  159. WWWW - the WORLD WIDE WEB WORM
  160.  
  161.    Maintained by Oliver McBryan <mcbryan@piper.cs.colorado.edu>.
  162.    
  163.    Another indexing robot, for which more information is available.
  164.    Actually has quite flexible search options.
  165.    
  166.    Awaiting identification information (run from piper.cs.colorado.edu?).
  167.    
  168.      _________________________________________________________________
  169.    
  170. WM32 Robot
  171.  
  172.    Run by Christophe Tronche <Christophe.Tronche@lri.fr>
  173.    
  174.    It has it's own page. Supposed to be compliant with the proposed
  175.    standard for robot exclusion. 
  176.    
  177.    Identification: run from hp20.lri.fr, User-Agent W3M2/0.02 and From
  178.    field is set.
  179.      _________________________________________________________________
  180.    
  181. Websnarf
  182.  
  183.    Maintained by Charlie Stross <charless@sco.com>
  184.    
  185.    A WWW mirror designed for off-line browsing of sections of the web.
  186.    
  187.    Identification: run from ruddles.london.sco.com.
  188.      _________________________________________________________________
  189.    
  190. The Webfoot Robot
  191.  
  192.    Run by Lee McLoughlin <L.McLoughlin@doc.ic.ac.uk>
  193.    
  194.    First spotted in Mid February 1994.
  195.    
  196.    Identification: It runs from phoenix.doc.ic.ac.uk
  197.    
  198.    Further information unavailable.
  199.      _________________________________________________________________
  200.    
  201. Lycos
  202.  
  203.    Owned by Dr. Michael L. Mauldin <fuzzy@cmu.edu> at Carnegie Mellon
  204.    University.
  205.    
  206.    This is a research program in providing information retrieval and
  207.    discovery in the WWW, using a finite memory model of the web to guide
  208.    intelligent, directed searches for specific information needs.
  209.    
  210.    You can search the Lycos database of WWW documents, which currently
  211.    has information about 390,000 documents in 87 megabytes of summaries
  212.    and pointers.
  213.    
  214.    More information is available on its home page.
  215.    
  216.    Identification: User-agent "Lycos/x.x", run from fuzine.mt.cs.cmu.edu.
  217.    Lycos also complies with the latest robot exclusion standard.
  218.      _________________________________________________________________
  219.    
  220. ASpider (Associative Spider)
  221.  
  222.    Written and run by Fred Johansen <fred@nvg.unit.no>
  223.    
  224.    Currently under construction, this spider is a CGI script that
  225.    searches the web for keywords given by the user through a form.
  226.    
  227.    Identification: User-Agent: "ASpider/0.09", with a From field
  228.    "fredj@nova.pvv.unit.no".
  229.      _________________________________________________________________
  230.    
  231. SG-Scout
  232.  
  233.    Introduced by Peter Beebee <ptbb@ai.mit.edu, beebee@parc.xerox.com>
  234.    
  235.    Run since 27 June 1994, for an internal XEROX research project, with
  236.    some information being made available on SG-Scout's home page
  237.    
  238.    Does a "server-oriented" breadth-first search in a round-robin
  239.    fashion, with multiple processes.
  240.    
  241.    Identification: User-Agent: "SG-Scout", with a From field set to the
  242.    operator. Complies with standard Robot Exclusion. Run from
  243.    beta.xerox.com.
  244.      _________________________________________________________________
  245.    
  246. EIT Link Verifier Robot
  247.  
  248.    Written by Jim McGuire <mcguire@eit.COM>
  249.    
  250.    Announced on 12 July 1994, see their page.
  251.    
  252.    Combination of an HTML form and a CGI script that verifies links from
  253.    a given starting point (with some controls to prevent it going
  254.    off-site or limitless).
  255.    
  256.    Seems to run at full speed...
  257.    
  258.    Identification: version 0.1 sets no User-Agent or From field. From
  259.    version 0.2 up the User-Agent is set to "EIT-Link-Verifier-Robot/0.2".
  260.    Can be run by anyone from anywhere.
  261.      _________________________________________________________________
  262.    
  263. ANL/MCS/SIGGRAPH/VROOM Walker
  264.  
  265.    
  266.    
  267.    Owned/Maintained by Bob Olson <olson@mcs.anl.gov>
  268.    
  269.    This robot is gathering data to do a full-text index with glimpse and
  270.    provide a Web interface for it.
  271.    
  272.    Identification: sets User-agent to "ANL/MCS/SIGGRAPH/VROOM Walker",
  273.    and From to "olson.anl.gov".
  274.    
  275.    Another rapid-fire robot that doesn't use the robot exclusion
  276.    protocol. Depressing. Improvements awaited.
  277.      _________________________________________________________________
  278.    
  279. WebLinker
  280.  
  281.    Written and run by James Casey <casey@ptsun00.cern.ch>
  282.    
  283.    It is a tool called 'WebLinker' which traverses a section of web,
  284.    doing URN->URL conversion. It will be used as a post-processing tool
  285.    on documents created by automatic converters such as LaTeX2HTML or
  286.    WebMaker. More information is on its home page.
  287.    
  288.    At the moment it works at full speed, but is restricted to local
  289.    sites. External GETs will be added, but these will be running slowly.
  290.    
  291.    WebLinker is meant to be run locally, so if you see it elsewhere let
  292.    the author know!
  293.    
  294.    Identification: User-agent is set to 'WebLinker/0.0 libwww-perl/0.1'.
  295.    
  296.      _________________________________________________________________
  297.    
  298. Emacs w3-search
  299.  
  300.    Written by William M. Perry <wmperry@spry.com>
  301.    
  302.    This is part of the w3 browser mode for Emacs, and half implements a
  303.    client-side search for use in batch processing, there is no
  304.    interactive access to it.
  305.    
  306.    For more info see the Searching section in the Emacs-w3 User's Manual.
  307.    
  308.    
  309.    I don't know if this is ever actually used by anyone...
  310.      _________________________________________________________________
  311.    
  312. Arachnophilia
  313.  
  314.    Run by Vince Taluskie <taluskie@utpapa.ph.utexas.edu>
  315.    
  316.    The purpose (undertaken by HaL Software) of this run was to collect
  317.    approximately 10k html documents for testing automatic abstract
  318.    generation. This program will honor the robot exclusion standard and
  319.    wait 1 minute in between requests to a given server.
  320.    
  321.    Identification: Sets User-agent to 'Arachnophilia', runs from
  322.    halsoft.com.
  323.      _________________________________________________________________
  324.    
  325. Mac WWWWorm
  326.  
  327.    Written by Sebastien Lemieux <lemieuse@ERE.UMontreal.CA>
  328.    
  329.    This is a French Keyword-searching robot for the Mac, written in
  330.    HyperCard. The author has decided not to release this robot
  331.    publically.
  332.    
  333.    Awaiting identification details.
  334.      _________________________________________________________________
  335.    
  336. churl
  337.  
  338.    Maintained by Justin Yunke <yunke@umich.edu>
  339.    
  340.    A URL checking robot, which stays within one step of the local server,
  341.    see further information.
  342.    
  343.    Awaiting identification details.
  344.      _________________________________________________________________
  345.    
  346. tarspider
  347.  
  348.    Run by Olaf Schreck <chakl@fu-berlin.de> (Can be fingered at
  349.    chakl@bragg.chemie.fu-berlin.de or
  350.    olafabbe@w255zrz.zrz.tu-berlin.de)
  351.    
  352.    Sets User-Agent to "tarspider <version>", and From to
  353.    "chakl@fu-berlin.de".
  354.      _________________________________________________________________
  355.    
  356. The Peregrinator
  357.  
  358.    Run by Jim Richardson <jimr@maths.su.oz.au>.
  359.    
  360.    This robot, in Perl V4, commenced operation in August 1994 and is
  361.    being used to generate an index called MathSearch of documents on Web
  362.    sites connected with mathematics and statistics. It ignores off-site
  363.    links, so does not stray from a list of servers specified initially.
  364.    
  365.    Identification: The current version sets User-Agent to
  366.    Peregrinator-Mathematics/0.7. It also sets the From field.
  367.    
  368.    The robot follows the exclusion standard, and accesses any given
  369.    server no more often than once every several minut es.
  370.    
  371.    A description of the robot is available.
  372.      _________________________________________________________________
  373.    
  374. checkbot.pl
  375.  
  376.    Written by Dimitri Tischenko <D.B.Tischenko@TWI.TUDelft.NL>
  377.    
  378.    Another validation robot.
  379.    
  380.    Sets User-agent to 'checkbot.pl/x.x libwww-perl/x.x' and sets the From
  381.    field.
  382.      _________________________________________________________________
  383.    
  384.     Martijn Koster
  385.